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究 方 法 分 为 3 类 。 随 着 技术 的 进步 ， 深 度 学 习 方 法 得 到 广泛 采用 。 相 
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相关 研究 的 发 展 脉络 。 


对 于 模型 的 改进 ， 基 于 深度 学 习 的 特征 学 习 和 表示 ， 对 作者 同名 消 层 算法 效果 的 提高 更 为 显著 ， 同 时 ， 为 充分 利用 数据 中 包 
含 的 各 种 信息 ，3 类 算法 呈现 出 相互 结合 、 互 补 增 荔 的 态势 。 从 文献 调研 情况 看 ， 可 以 从 增 量 消 尽 和 跨 语 种 消 层 等 角度 开展 
后 续 研 究 。 
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引用 本 文 : EH PH RS, 等 . 学 术 论文 作者 同名 ; 


1 引 
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随 着 信息 技术 和 出 版 行业 的 快速 发 展 ， 科 研 产 出 
数量 涨 势 迅 猛 。 据 统计 ， 全 球 约 有 10 000 家 期 刊 出 版 
商 ， 每 年 发 表 300 多 万 篇 文章 ， 近 年 来 论文 年 增长 率 
为 4%， 期 刊 数量 年 增长 率 已 经 超过 5% 中 。 然 而 ， 在 如 
此 庞大 的 文献 数量 之 下 ， 由 作者 同名 现象 所 引起 的 作 
者 实体 指 代 不 明 的 问题 频频 出 现 ， 为 科研 成 果 管 理 、 
科学 文献 管理 、 文 献 搜 索 服务 、 社 交 网 络 分 析 等 诸多 
应 用 场景 带 来 了 挑战 。 该 问题 作为 学 术 评 价 、 科 学 家 
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HEL]. 农业 图 书 情报 学 报 , 2022, 34 (10) : 82-90. 


流动 等 人 文 社 科 类 研究 课题 的 基础 性 重要 环节 ， 严 重 
测 肘 相关 研究 的 开展 ， 成 为 阴 待 解决 的 问题 之 一 。 

学 术 论 文 作者 同名 消 皮 任务 所 面临 的 主要 情况 是 
同名 异 人 ， 即 多 名 作者 共享 同一 个 姓名 。 作 者 同名 消 
攻 任 务 的 目标 是 建立 论文 与 现实 中 作者 实体 的 关系 ， 
问题 的 核心 是 判断 出 现在 多 篇 论文 中 的 同一 作者 姓名 


异 人 的 情况 往往 涉及 同一 领域 ， 甚 至 同一 机 构 的 同名 
作者 区 分 。 

本 文 使 用 Web of Science (选择 库 WOS 核心 集 、 
CABI、 中 国 科学 引文 数据 库 、SciELO Citation Index), 
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Scopus, ACER. ACM, IEEE, Elsevier, Springer, 
中 国 知 网 、 维 普 数 据 库 和 万 方 数据 库 ， 检 索 作 者 姓名 
消 歧 相关 文献 ， 检 索 词 选用 英文 “name disambiguat*” 
“author disambiguat*” 
X “WEA TRIB” MEA” 
X fr dt EG IU 
“author name disambiguat*” 等 限定 词 进 行 精炼 ， 将 研 
究 方 向 限定 为 计算 机 科学 和 情报 学 图 书馆 学 ， 检 索 结 
果 经 汇总 、 排 除 重复 、 人 工 剔除 误 检 、 根 据 参 考 文献 
补充 漏 检 后 获得 文献 470 余 篇 ， 涵 盖 了 从 1998 年 至 
2021 年 的 相关 文献 ， 限 于 篇 幅 ， 在 兼顾 权威 性 、 影 响 力 
和 新 家 性 的 前 提 下 ， 选 择 其 中 46 篇 文献 进行 归纳 总 结 。 

作者 同名 消 歧 最 早 是 由 BAGGA fI BALDWIN? 
1998 年 首次 提出 ， 此 后 逐步 引起 学 界 关 注 ， 并 于 2001 
年 举办 的 数字 图 书馆 联合 会 议 (JCDL) 上 作为 主要 议 
题 进行 讨论 。 经 过 20 多 年 的 不 断 探 索 ， 学 界 对 此 问题 
进行 了 大 量 研究 ， 也 取得 了 相当 丰硕 的 成 果 。 通 过 对 
近 3 年 来 的 综述 类 文献 的 研读 ， 发 现 既往 综述 文献 有 
的 聚焦 于 单一 文献 数据 库 的 方法 述评 m; 有 的 针对 特定 
算法 进行 分 析 ， 未 能 反映 问题 全 貌 由 ， 也 有 文献 着 重 对 
网 页 人 名 消 层 研究 的 整理 ， 场 景 依 于 网 络 口 ， 更 有 学 者 
对 相关 技术 方法 从 不 同 视角 做 了 分 类 整理 和 汇总 ， 但 
并 未 关注 数据 对 问题 解决 方法 的 影响 ， 也 未 阐明 数据 
与 算法 之 间 的 关系 四 。 为 此 ， 本 文 以 机 器 学 习 视 角 ， 从 
消 皮 任务 所 采用 特征 数据 的 结构 人手 ,将 相关 研究 划 
分 为 基于 文献 特征 的 消 歧 方法 、 基 于 社会 网 络 的 消 靶 
方法 和 整合 外 部 知识 的 消 歧 方 法 3 个 类 别 ， 从 数据 层 
面 审 视 数 据 对 作者 同名 消 琉 方法 的 影响 ， 厘 清 发 展 脉 
络 ， 为 后 续 研 究 及 应 用 提供 参考 。 


“disambiguation ofnames” 和 中 
“著者 消 层 "， RA 


“ Name disambiguat* for author” 


2 数据 分 析 及 存在 问题 


2.1 数据 分 析 


作者 同名 消 皮 问题 属于 命名 实体 消 收 的 范畴 "， 可 
以 归 为 分 类 或 聚 类 问题 ， 处 理 过 程 一 般 包括 数据 收集 
和 分 析 、 数 据 预 处 理 、 特 征 抽取 、 分 类 训练 或 聚 类 、 
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学 术 论文 作者 同名 消 此 方法 研究 进展 


结果 验证 等 步骤。 由 于 特征 来 源 于 对 数据 的 学 习 ， 影 
响 机 器 学 习 效 果 的 主要 决定 因素 在 于 数据 。 数 据 可 以 
有 多 种 类 型 和 结构 ， 例 如 文献 特征 信息 一 般 以 非 结构 
化 文本 呈现 ,提取 后 的 特征 可 以 用 二 维 表 来 存储 和 表 
示 ; 引证 信息 和 人 际 关 系 是 网 状 的 关系 型 数据 ， 可 以 
用 图 、 键 值 对 或 二 维 表 来 存储 、 表 示 其 二 元 或 多 元 关 
系 。 数 据 结构 不 同 ， 根 本 原因 在 于 其 语义 的 差异 ,但 
数据 结构 本 身 决定 了 其 适用 算法 。 作 者 同名 消 政 任务 
的 数据 来 源 可 以 非常 直观 地 分 为 3 个 部 分 : 四 文献 特 
征 。 文 献 特征 包括 标题 、 关 键 词 、 摘 要 、 人 全文、 出 版 
信息 、 引 文 信息 等 。 四 作者 特征 ， 包 括 作者 的 姓名 、 
邮箱 、 隶 属 机 构 、 地 址 及 其 他 信息 。 从 作者 信息 中 可 
以 提取 作者 之 间 的 合 车 关系 ， 构 成 合 著 网 络 。@ 外 部 
引入 特征 ， 即 除去 论文 所 提供 的 信息 以 外 ， 通 过 作者 
个 人 主页 、 百 科 等 其 他 外 部 信息 来 源 获 取 的 特征 信息 。 
无 论 是 文献 特征 ， 还 是 作者 特征 ， 大 部 分 特征 信 
息 所 描述 的 都 是 一 种 二 元 关系 ， 可 以 用 二 维 表 来 表示 
和 处 理 , 但 是 引文 信息 和 作者 特征 中 的 合 著 关 系 描述 
的 是 多 元 关系 ， 适 用 键 值 对 或 图 结构 来 存储 和 处 理 。 


2.2 数据 中 存在 的 问题 


在 作者 同名 消 皮 任务 中 ， 数 据 方面 存在 的 问题 为 
同名 消 收 问题 的 解决 带 来 了 困难 和 挑战 ， 主 要 有 以 下 3 
个 方面 。 

(1) 作者 信息 不 完善 。 学 术 论 文 元 数据 中 关于 作 
者 的 信息 不 够 完善 。 从 论文 提交 、 发 表 ， 到 元 数据 采 
集 汇 总 ， 面 向 科研 管理 或 学 术 评价 等 研究 提出 消 此 任 
务 ， 中 间 的 各 个 环节 都 会 影响 数据 的 完整 性 。 在 论文 
提交 发 表 环节 ， 不 同 出 版 机 构 对 著录 信息 的 完备 性 要 
求 存在 差异 ， 著 录 要 求 不 尽 相 同 ， 作 者 的 属性 信息 丰 
富 程度 参差 不 齐 ; 元 数据 采集 整理 环节 ， 数 据 采集 往 
往 出 现 数据 缺 项 、 漏 采 ， 数 据 清洗 规范 过 程 不 可 避免 
对 数据 造成 二 次 破坏 。 学 术 论文 作者 消 歧 任务 所 使 用 
的 作者 数据 ， 其 信息 往往 不 完整 ， 缺 乏 足够 的 信息 来 
作为 消 攻 的 依据 。 

(2) 作者 信息 不 规范 。 作 者 信息 不 规范 表现 为 同 
一 著者 存在 多 个 名 字 。 这 一 现象 主要 出 现在 外 文 期 刊 
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论文 中 ， 造 成 这 种 情况 的 原因 主要 是 外 文 姓名 拼写 存 
在 多 种 变 体 ( 如 全称 和 缩写 )， 同 时 也 存在 元 数据 录入 
错误 的 情况 ， 造 成 姓名 著录 格式 不 规范 的 结果 。 

(3) 作者 信息 动态 变化 。 作 者 在 现实 中 的 所 属 单 
位 、 地 点 、 联 系 方式 等 信息 存在 变更 的 可 能 ， 同 一 作者 
不 同时 期 的 论文 ， 其 属性 信息 存在 前 后 不 一 致 的 情况 。 


3 作者 同名 消 歧 的 研究 方法 
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或 聚 类 的 准确 率 。 为 达到 这 一 目的 ， 相 关 研 究 从 两 个 
方向 进行 了 探索 ， 一 种 是 利用 空间 向 量 模型 进行 特征 
提取 和 表示 ， 然 后 作为 聚 类 算法 的 输入 数据 实现 作者 
[E] ig. pun de ds qn] s M IRIS] BAGGA 和 
BALDWIN 利用 向 量 空 间 模型 算法 对 跨 文档 的 共 指 链 
信息 进行 向 量化 表示 ， 通 过 评分 实现 跨 文档 共 指 消 
EE], CHENG 等 四 抽取 全 文中 的 命名 实体 作为 特征 ， 
包括 名 词 短 语 和 人 物 ， 并 使 用 Soft-TFIDF 算法 将 其 表 
示 为 特征 向 量 ， 通 过 计算 特征 向 量 之 间 的 相似 度 作为 


根据 消 疏 任务 所 使 用 特征 数据 结构 的 不 同 ， 该 问 
题 的 研究 方法 也 大 致 可 以 划分 为 3 个 类 别 : 基于 文献 
特征 的 消 歧 方法 、 基 于 社会 网 络 的 消 攻 方法 和 整合 外 
部 知识 的 消 医 方 法 。 其 中 ， 基 于 文献 特征 的 消 歧 方法 ， 
根据 特征 处 理 方式 的 不 同 ， 还 可 以 分 为 有 监督 的 消 歧 
方法 、 无 监督 的 消 收 方法 和 半 监 督 的 消 收 方法 。 有 监 
督 的 消 攻 方法 将 作者 同名 消 歧 视 为 分 类 任务 ， 采 用 事 
先 已 标注 的 数据 训练 模型 ， 再 应 用 模型 对 未 区 分 同名 
作者 的 方式 进行 分 类 ， 优 点 是 精度 较 高 ， 缺 点 是 所 需 
的 训练 集 数量 庞大 且 获 得 成 本 高 。 无 监督 的 消 履 方法 
将 同名 消 攻 视 为 聚 类 任务 ， 只 要 输入 模型 的 特征 具备 
足够 的 区 分 度 ， 就 可 以 从 数据 中 自动 习 得 模式 且 获 得 
相当 不 错 的 效果 ， 优 点 是 不 依赖 训练 数据 ， 缺 点 是 在 
大 数据 集 上 收敛 较 慢 ， 对 参数 比较 敏感 。 


3.1 基于 文献 特征 的 消 歧 方法 


基于 文献 特征 的 消 靶 方法 是 同名 消 歧 命题 提出 之 
初 所 采用 的 研究 方法 ， 此 方法 的 主要 思路 是 从 论文 元 
数据 中 提取 各 种 特征 ， 即 利用 论文 的 标题 、 关 键 词 、 
摘要 、 作 者 单位 等 文献 外 部 特征 ， 寻 找 或 构造 对 作者 
姓名 具有 最 大 区 分 度 的 特征 集合 ， 然 后 进一步 优化 、 
提取 、 保 留 有 效 特征 ， 删 除 无 关 特 征 ， 一 方面 实现 数 
据 降 维 ， 降 低 噪声 ， 减 少 计 算 的 资源 开销 ; 另 一 方面 
提高 模型 的 鲁 棒 性 和 泛 化 能 力 ， 最 后 选择 合适 的 算法 
计算 得 出 消 歧 结果 。 

算法 选择 方面 ， 有 监督 方法 常用 算法 是 空间 向 量 
模型 (Vector Space Model) ， 无 监督 方法 采用 的 算法 是 
各 种 聚 类 算法 ， 二 者 经 常 配合 使 用 ， 目 的 是 提高 分 类 
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层次 聚 类 方法 的 输入 值 。 章 顺 瑞 等 gm 抽取 文章 中 的 命名 
实体 、 名 词 短 语 和 动词 短语 作为 特征 词 ， 利 用 空间 向 
量 模型 处 理 为 特征 向 量 后 使 用 词 频 加 权 ， 作 为 层次 聚 
类 算法 的 输入 以 提高 聚 类 效果 。 另 一 种 是 分 阶段 多 次 
聚 类 ， 不 断 精 练 聚 类 结果 从 而 提高 精度 。 例 如 丁 海 波 
等 中 提出 一 种 三 阶段 聚 类 的 方法 ， 通 过 在 第 二 、 第 三 
阶段 聚 类 过 程 中 加 入 上 下 文 特征 以 解决 属性 数据 的 稀 
GVEA, fi ASAI, WANG 等 中 提出 了 基于 
两 步 策略 的 自 适 应 共振 理论 (ART)， 分 两 步 聚 类 模拟 
人 工 消 歧 过 程 。 

在 对 特征 的 选择 方面 ， 相 关 研 究 经 历 了 人 工 抽 选 
特征 到 自动 学 习 语 义 特征 的 过 程 。 早 期 研究 关于 特征 
选择 ， 一 般 以 人 工 选 择 为 主 ， 例 如 LONG 等 中 抽取 命 
名 实体 和 名 词 作为 特征 词 ， 同 时 利用 特征 词 与 作者 姓 
名 的 句 间距 作为 权 值 对 特征 词 加 权 ， 构 成 特征 向 量 。 
随 着 时 间 发 展 和 相关 研究 的 推进 ， 特 征 选择 也 呈现 出 
自动 化 、 抽 象 化 的 特点 ， 如 ANDERSON 等 中 提出 一 种 
SAND 自学 习 器 ， 通 过 启发 式 方法 自动 学 习作 者 姓名 、 
作品 和 地 点 名 称 作 为 训练 数据 的 特征 ， 解 决 了 特征 稀 
Wil]. PEDERSEN 等 利用 奇异 值 分 解 (SVD) 对 
文本 特征 向 量 进行 降 维 ， 提 高 了 相似 度 计算 的 准确 率 。 
伴随 着 深度 学 习 技 术 的 兴起 ， 该 技术 也 被 引入 进来 ， 
作为 自动 学 习 语 义 特征 的 工具 ， 如 TRAN 等 中 提出 一 
种 使 用 深度 神经 网 络 自 动 学 习 特征 以 解决 作者 姓名 歧 
义 。 阮 光 册 等 9 提出 一 种 融合 文献 外 部 基本 特征 和 内 
部 语义 特征 的 方法 ， 利 用 BERT 模型 和 词 租 人 对 文本 
内 容 的 语义 信息 进行 学 习 和 向 量化 表示 ， 最 终 将 融合 
多 特征 的 数据 输入 XGBoost 完成 作者 同名 消 歧 。 马 莹 
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法 ， 利 用 word2vec 编码 文档 的 属性 特征 ， 然 后 采用 图 
自动 编码 器 将 文档 关系 编码 到 文档 向 量 中 ， 最 后 聚 类 
实现 作者 同名 消 牙 。 

基于 文献 特征 的 消 疏 方法 以 文献 的 外 在 特征 属性 
或 内 在 语义 特征 作为 消 歧 的 依据 ， 因 此 存在 对 数据 使 
用 不 充分 的 短 板 ， 特 别 是 对 各 种 关系 型 数据 的 表示 能 力 
比较 差 ， 如 作者 合 著 关 系 、 作 者 一 所 属 机 构 关系 等 。 


3.2 基于 社会 网 络 的 消 歧 方 法 


基于 社会 网 络 的 消 层 方法 将 论文 外 在 特征 中 的 作 
者 社会 关系 网 络 作为 区 分 作者 实体 的 依据 ， 该 方法 利 
用 作者 在 社会 关系 网 络 中 的 关系 特征 和 社会 关系 的 传 
递 性 构建 社会 网 络 图 ， 根 据 合 著 、 引 用 、 隶 属 等 关系 
构建 边 ， 以 关系 出 现 次 数 作为 边 的 权重 ,然后 利用 图 
相关 理论 计算 同名 作者 之 间 的 相似 度 (拓扑 距离 )， 从 
而 实现 作者 同名 消 歧 。MALINAW 根据 一 个 实体 名 称 可 
以 在 多 个 来 源 中 出 现 的 事实 ， 首 次 提出 构建 基于 作者 
姓名 的 关系 网 络 ， 并 从 本 地 局 部 聚 类 和 全 局 随机 游 走 
聚 类 两 个 角度 分 别 给 出 了 对 应 的 解决 方案 。 妇 君 等 中 
利用 检索 结果 中 同名 作者 的 共 现 现象 发 现 并 拓展 其 潜 
在 社会 网 络 ， 结 合 图 的 谱 分 割 算法 和 模块 度 指标 进行 
聚 类 ， 实 现 作者 同名 消 牙 。YAO 外 将 姓名 消 此 方法 应 
用 于 保险 领域 ， 先 用 属性 匹配 合并 客户 姓名 ， 再 利用 
链接 分 析 客 户 网 络 结构 ， 合 并 相同 信息 后 实现 人 名 消 
Ht, NADIMI 等 症结 合 启发 式 层次 聚 类 和 社交 网 络 ， 将 
文献 引用 关系 、 作 者 关系 等 信息 构建 为 社会 网 络 图 ， 
实现 人 名 消 层 。 

算法 的 演变 主要 表现 在 特征 表示 方面 ， 一 方面 ， 
特征 表示 由 高 维 稀 琉 向 量 特征 表示 方式 转变 为 经 过 深 
度 学 习 处 理 的 低 维 稠密 特征 向 量 表示 方式 。 传 统 的 社 
会 网 络 采 用 维 数 较 多 的 稀 玻 向 量 对 特征 进行 表示 ， 这 
种 方法 仅 适 用 于 小 数据 集 低 维 求解 ， 但 是 应 用 到 大 数 
据 集 时 就 会 遭遇 “维度 爆炸 ”。 为 解决 这 一 问题 ， 基 于 
社会 网 络 的 消 此 方法 借鉴 了 深度 学 习 词 向 量 的 构建 方 
式 ， 将 节点 序列 视 作 词 序列 ， 将 高 维 稀 玻 向 量 映射 为 
低 维 稠密 向 量 的 特征 表示 ， 显 著 改 善 了 此 种 方法 在 大 
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学 术 论文 作者 同名 消 此 方法 研究 进展 


规模 数据 集 上 的 应 用 效果 。 例 如 PEROZZI 等 四 首次 将 
语言 建 模 思 想 引 入 社会 网 络 的 特征 表示 中 ， 提 出 Deep- 
Walk 算法 ,将 社会 网 络 节点 在 连续 向 量 空间 中 进行 编 
人 码 ， 以 便 统 计 模 型 利用 。MIKOLOYV 等 四 将 Skip-gram 
模型 引入 社会 网 络 方法 ， 提 出 一 个 分 层 softmax BARY 
案 通过 对 高 频 词 进行 二 次 采样 和 降 采 样 特征 学 习 ， 获 
得 了 显著 加 速 。GROVER 等 四 提出 Node2Vec 算法 作 
为 对 DeepWalk 算法 的 改进 ， 该 方法 采样 随机 游 走 实现 
更 加 全 面 的 节点 关系 采样 。 另 一 方面 ， 特 征 表示 由 单纯 
社会 关系 网 络 等 同 构 网 络 向 融合 关系 类 型 、 节 点 属性 等 
信息 的 异 构 网 络 方向 演变 。 例 如 陈 莉 等 四 在 DeepWalk 
算法 的 基础 上 进行 改进 ， 将 节点 之 间 边 的 关系 类 型 考 
虑 在 内 ， 提 出 NEES 算法 ,能够 采样 得 到 边关 系 类 型 
信息 的 边 向 量 ， 同 时 能 为 图 中 每 个 节点 学 习 到 一 个 低 
维 表示 。WANG EPI E Hi — fp Z4 (TR E Wi A A77 
ik, BU SDNE 算法 ， 用 半 监 督 的 深度 模型 来 捕捉 高 度 
非 线 性 结构 ， 通 过 结合 一 阶 相似 性 (监督) 和 二 阶 相 
似 性 ( 非 监督 ) 来 保留 局 部 和 全 局 特征 。 刘 正 铭 等 四 
提出 一 种 融合 节点 文本 属性 信息 的 网 络 表示 学 习 算 法 ， 
建立 基于 参数 共享 的 共 耦 神经 网 络 ， 利 用 负 采 样 和 随 
机 梯度 下 降 优 化 策略 实现 模型 快速 收敛 ， 从 而 获得 融 
合 网 络 结构 信息 和 节点 文本 属性 信息 的 特征 表示 。 

基于 社会 网 络 的 消 卜 方法 侧重 于 对 作者 社会 关系 
网 络 的 数据 表示 ， 但 是 缺乏 对 文献 外 在 特征 的 数据 表 
示 能 力 ， 因 此 也 存在 数据 利用 不 充分 的 情况 。 


3.3 整合 外 部 知识 的 消 歧 方法 


鉴于 论文 数据 中 可 用 作者 信息 有 限 ， 研 究 者 尝试 
通过 整合 外 部 资源 和 知识 进而 达到 数据 增强 的 效果 。 
此 类 方法 利用 网 络 公开 资源 构建 新 的 规则 和 类 别 ， 选 
取现 实 中 人 物 信息 中 具有 较 强 区 分 度 且 具备 较 高 准确 
度 的 社会 属性 ， 建 立 其 与 待 消 歧 姓 名 的 联系 ， 从 而 实 
现 丰富 人 物 特征 的 目的 。 
基于 整合 外 部 知识 的 消 歧 方法 也 经 历 了 从 传统 实 
体 链接 方法 走向 结合 深度 学 习 方 法 获取 特征 抽象 和 泛 
化 能 力 的 过 程 。 杨 欣欣 等 外 抽取 网 页 文本 中 人 名 实体 
相关 的 依存 特征 和 命名 实体 等 辅助 特征 ， 采 用 二 层 聚 
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类 实现 人 名 消 上 到。HAN 等 四 提出 一 种 利用 专业 类 别 知 
识 从 Freebase 中 自动 挖掘 参考 实体 表 的 Web 查询 方 
法 ， 通 过 分 类 将 人 名 链接 到 个 人 实体 来 实现 消 卜 。VU 
等 站 利用 Web 目录 作为 知识 库 ， 查 找 姓名 在 公共 文档 
中 的 上 下 文 ， 结 合 文档 相似 性 实现 人 名 消 歧 。SHEN 
等 加 提出 一 种 利用 符 入 在 维基 百科 中 的 丰富 语义 知识 
和 知识 库 的 分 类 法 ， 将 文本 中 的 命名 实体 与 统一 维基 
百科 和 WordNet 的 知识 库 联 系 起 来 的 方法 。 宁 博 等 四 
从 中 文 维基 百科 等 知识 库 抽 取 人 物 信息 、 实 体 关 系 等 
实体 信息 对 象 ， 提 出 基于 异 构 知 识 库 的 层次 聚 类 方法 。 
HAN 等 9 将 知识 库 中 的 每 条 实体 定义 作为 文本 ， 从 中 
抽取 关于 人 物 属性 的 19 个 特征 形成 向 量 ， 并 以 此 辅助 
THU, PENG 等 四 提出 用 于 中 文 命名 实体 识别 和 消 靶 任 
务 的 SIR-NERD 系统 ， 该 系统 使 用 两 阶段 方法 ， 先 将 
知识 库 中 同一 人 名 下 所 有 实体 作为 一 篇 文本 并 对 其 实 
体 指称 项 分 类 ， 再 对 真正 指向 实体 的 指称 项 进行 聚 类 
以 实现 消 靶 。HE 等 加 利用 深度 神经 网 络 堆 琶 降 噪 自动 
编码 需 学 习 初 始 文档 的 特征 表示 ， 然 后 通过 微调 优化 
相似 性 度量 的 表示 ， 该 方法 在 没有 任何 手动 设计 特征 
的 情况 下 ， 在 两 个 公共 数据 集 上 性 能 击败 了 复杂 的 集 
体 方法 。SUN 等 外 用 卷 积 神经 网 络 将 实体 表述 及 其 上 
下 文 在 连续 向量 空间 中 进行 编码 ， 并 构 入 上 下 文 词 的 
位 置 以 考虑 上 下 文 词 和 提 及 之 间 的 距离 ， 同 时 使 用 神 
经 张 量 网 络 来 模拟 上 下 文 和 提 及 之 间 的 语义 交互 ， 显 
著 提 高 了 消 歧 性 能 。FRANCIS 等 四 使 用 卷 积 神经 网 络 
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化 实体 链接 系统 ， 取 得 良好 性 能 。GUO 等 外 以 语义 相 
似 的 自然 概念 为 指导 ， 以 迭代 和 贪 禁 近 似 方法 ， 对 文 
档 中 提 到 的 所 有 实体 消 卜 ， 利 用 在 知识 库 产生 的 子 图 
上 进行 随机 游 走 获得 的 概率 分 布 和 词汇 统计 特征 提高 
链接 性 能 。YANG 等 外 提出 动态 上 下 文 增强 (DCA), 
顺序 累积 上 下 文 信息 以 进行 高 效 集体 推理 ， 并 且 可 以 
作为 插件 和 增强 模块 来 应 对 不 同 的 本 地 实体 链接 模型 。 
针对 实体 链接 系统 对 专门 标注 大 量 文档 的 依赖 问题 ， 
LE 等 四 提出 一 种 仅 利用 自然 发 生 信息 (未 标记 文档 和 
维基 百科 ) 的 方法 ， 首 先 建立 未 标记 文档 中 提 及 候选 
实体 的 高 召回 列表 ， 然 后 使 用 候选 列表 作为 弱 监 督 来 
约束 文档 级 实体 链接 模型 。LE 等 只 还 探索 了 在 没有 任 
何 标记 示例 、 只 有 知识 库 和 来 自 相 应 领域 的 未 注释 文 
本 集合 的 情况 下 学 习 链 接 引 用 的 方法 ， 将 实体 链接 任 
务 定 义 为 多 实例 学 习 问 题 ， 依 赖 表面 匹配 创建 初始 化 
标签 ， 将 实体 链接 问题 构造 为 远程 学 习 问 题 。 

整合 外 部 知识 的 消 歧 方法 本 质 是 对 消 上 数据 的 补 
充 和 增强 ， 并 未 从 本 质 上 解决 前 述 两 类 方法 数据 利用 
不 充分 的 问题 。 


纵 观 作者 同名 消 收 研究 的 进展 ， 不 难 发 现 ， 所 有 
的 消 靶 模 型 和 算法 都 是 围绕 着 数据 的 特点 和 不 足 展开 
的 。 可 以 说 ， 有 什么 样 的 数据 ， 就 有 什么 样 的 算法 ， 


来 学 习 文 本 的 上 下 文 和 实体 的 规范 描述 页 面 ， 提 高 了 
链接 性 能 。CHEN 等 外 基于 预 训练 的 BERT 模型 将 洪 
在 实体 类 型 信息 注入 实体 嵌入 中 ,， 另 外， 把 基于 BERT 
的 实体 相似 度 分 数 集成 到 最 先进 模型 的 本 地 上 下 文 模 
型 中 ， 以 更 好 地 捕获 潜在 实体 类 型 信息 。 

此 外 ， 基 于 整合 外 部 知识 的 消 歧 方法 与 基于 社会 
网 络 的 方法 相 结合 ， 从 “局 部 ”走向 “全 局 "”。GUPTA 
等 多 探索 大 量 维基 百科 的 链接 ， 使 用 多 种 信息 源 对 实 
体 描 述 、 实 体 上 下 文 及 结构 化 知识 学 习 统 一 的 密集 表 
示 ， 无 需 特 定 领域 训练 数据 或 人 工 设计 ， 解 决 了 训练 
数据 不 足 的 问题 。LE 等 四 将 实体 链接 的 文本 共同 引用 
关系 作为 潜在 变量 加 入 全 局 模型 ， 以 端 到 端的 方式 优 
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算法 的 提出 与 改进 ， 都 是 针对 数据 的 不 足 加 以 补充 或 
妥协 的 结果 。 针 对 论文 数据 中 作者 属性 信息 不 完善 的 
情况 ， 研 究 者 另辟蹊径 提出 了 整合 外 部 知识 的 作者 同 
名 消 层 方法 ; 针对 论文 自身 属性 中 内 在 特征 和 外 在 特 
征 的 不 同 特点 ， 分 别 发 展 出 了 基于 特征 的 作者 同名 消 
歧 方 法 和 基于 社会 网 络 的 同名 消 歧 方法 ;针对 越 来 越 
大 的 数据 体 量 和 维度 爆炸 的 特征 模型 ， 引 入 基于 深度 
学 习 的 词 驹 入 成 为 最 佳 方案 。 随 着 技术 的 进步 ， 在 特 
征 选择 方面 ，3 类 研究 方法 逐渐 发 展 为 采用 深度 学 习 技 
术 的 特征 表示 方式 ， 相 对 于 模型 的 改进 ， 基 于 深度 学 
习 的 特征 学 习 和 表示 ， 对 作者 同名 消 攻 算法 效果 的 提 
高 更 为 显著 。 此 外 ， 上 述 3 类 方法 也 并 非 泾 涓 分明， 
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呈现 出 相互 结合 使 用 的 态势 ， 目 的 是 尽 可 能 多 地 利用 
各 类 信息 ， 取 长 补 短 ， 以 期 获得 更 好 的 效果 。 例 如 ， 
吴 柯 烨 等 四 构建 基于 蜡 源 数据 的 二 阶段 姓名 消 歧 框架 ， 
在 充分 挖 据 本 地 关联 信息 的 基础 上 ， 结 合 外 源 数据 和 
本 地 关系 发 现实 现 全 面 姓名 消 靶 ; 王 奉 琳 等 外 提取 文 
本 特征 和 文章 与 合 著者 之 间 的 关系 信息 ， 采 用 论文 从 
入 网 络 构建 异 质 信息 网 络 ， 融 合 内 容 信息 和 关系 信息 ， 
基于 循环 神经 网 络 和 层次 聚 类 实现 作者 姓名 消 攻 ; 郭 
晨 亮 等 四 使 用 词 徐 入 处 理 文献 特征 信息 ， 结 合 元 路 径 随 
机 游 走 构建 异 构 网 络 ， 最 后 以 密度 聚 类 算法 完成 消 歧 。 

展望 未 来 ， 作 者 同名 消 此 相关 研究 可 以 从 以 下 两 
方面 人手。 

(1) 现 阶 段 关 于 增 量 消 攻 的 相关 研究 较 少 。 从 本 
次 文献 调研 结果 看 ， 增 量 消 此 相关 著述 仅 30 余 篇 ， 现 
有 研究 大 多 面向 “存量 ”数据 的 “ 冷 启动 ”大 批量 消 
上 收场 景 展 开 ， 针 对 增 量 数据 的 消 收 研究 数量 相对 较 少 。 
鉴于 作者 唯一 标识 并 未 成 为 作者 信息 的 必 备 字段 ， 作 
者 同名 的 现象 还 将 持续 发 生 ， 作 者 同名 增 量 消 攻 依然 
是 当前 需要 解决 的 问题 。 

(2) 跨 语种 消 疏 的 相关 研究 较 少 。 当 前 研究 基本 
以 单 语种 为 主 ,但 是 随 着 中 国 国际 化 程度 的 加 深 ， 越 
来 越 多 的 论文 在 国外 获得 发 表 ， 蜂 语种 消 歧 相 关 研 究 
可 能 是 未 来 的 研究 方向 之 一 。 
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A Survey of Author Name Disambiguation Techniques of Academic Papers 
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Abstract: [Purpose/Significance] This paper investigates the research on author name disambiguation published in recent years, and 
reviews the development context of relevant research from the perspective of the impact of data on author name disambiguation 
methods, so as to provide reference for further research. [Method/Process] The papers related to author name disambiguation were 
collected from English research databases such as Web of Science, Scopus, Google Academic, ACM Digital Library, IEEE Xplore, 
ScienceDirect, Scopus and Springer Link, and Chinese research databases such as CNKI, CQVIP and WANFANG. The search results 
cover the relevant papers published from 1998 to 2021. On the premise of giving consideration to authority, influence and novelty, 46 
publicationswere selected for review. There are many types and structures of author name disambiguation data. For example, literature 
feature information is generally presented in unstructured text, and the extracted features can be stored and represented in 
two-dimensional tables; Citation information and interpersonal relationship are network relational data, which can be stored and 
represented by graphs, key value pairs or two-dimensional tables. The fundamental reason for different data structures lies in their 
semantic differences, but the data structure itself determines its applicable algorithm. According to the structure of characteristic data 
used in the author name disambiguation task and the different corresponding data processing algorithms, the relevant research is divided 
into three categories: 1) disambiguation method based on literature characteristics, 2) disambiguation method based on social network 
and 3) disambiguation method by integrating external knowledge. The impact of data on the author name disambiguation method is 
examined from the data level. [Results/Conclusions] The analysis found that with the progress of technology, deep learning methods 
have been widely used. Compared with the improvement of the model, the feature learning and representation based on deep learning 
can significantly improve the effect of the author name disambiguation algorithm. In addition, in order to overcome the problem of 
insufficient data utilization by a single method and improve the utilization efficiency of data, the three methods show the trend of mutual 
combination and complementary gain. From the literature research results, there are few related studies on incremental author name 
disambiguation and multi-language author name disambiguation, which could be one of the directions for further research. 
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